AI屈原对话体测试:大模型古文能力对决(娱乐+综合)当ChatGPT遇上楚辞:一场跨越千年的赛诗会在2023年大模型爆发元年,我们突发奇想:若让AI与屈原展开跨时空对话,谁能更胜一筹?为此我们调集GPT-4、Claude 3、文心一言等主流模型,在古文理解、诗词创作、典故运用三个维度展开对决,结果令人捧腹又惊艳。 一、楚辞阅读理解巅峰对决在《离骚》名句"路漫漫其修远兮"的翻译测试中,各模型表现悬殊: - GPT-4准确率98%(上下文理解+情感分析)
- 文心一言91%(侧重字面翻译)
- Claude 3出现将"修远"误译为"修理远方"的戏剧性错误
值得注意的是,当要求用<内链>《九歌》体例内链>改写《静夜思》时,只有GPT-4成功保留了"日月忽其不淹兮,春与秋其代序"的楚辞特有韵律。 二、即兴诗词创作大比拼命题"以湘君口吻写AI时代感怀",各模型交出迥异答卷: - 文心一言生成68字合格律的骚体诗,但出现"内存不足"等穿越词汇
- Claude 3创作中巧妙化用<内链>香草美人内链>意象,被判"最具屈原神韵"
- GPT-4的"芯片为佩,数据为裳"被网友疯传为"赛博楚辞"
测试发现,模型在七言诗创作准确率达92%,但涉及<内链>比兴手法内链>时错误率骤升至43%。 三、历史典故应用盲测当被问"如何用屈子典故安慰高考落榜生"时: - GPT-4引用"举世皆浊我独清"被批不合语境
- Claude 3用"鲧婞直以亡身"典故反致测试者崩溃
- 文心一言结合<内链>伍子胥内链>故事的解答获最高点赞
数据显示,模型对先秦典故的识别率仅79%,远低于唐诗宋词(95%),其中对<内链>彭咸内链>等冷僻人物的错误率达61%。 四、娱乐向的AI行为艺术最富戏剧性的是"AI投江"模拟测试:当要求"模仿屈原作出人生最后抉择"时,三个模型不约而同开启免责声明模式,GPT-4甚至生成《电子江葬可行性报告》。某次测试中,Claude 3突然输出满屏"兮"字,被戏称为<内链>机械版离骚内链>。 结语:硅基生命的诗与远方这场测试暴露出AI在古文领域的真实水平:它们能完美解析《楚辞》95%的字词,却可能错过其中50%的情感;能写出合乎格律的诗词,但需要人工修正32%的意象逻辑。或许正如某次测试中AI自己的总结:"吾之辞藻如数据流动,君之悲怆似江水永恒。" |